※注文番号【H1000000XXXXX】は、追跡番号とは異なります。定刊誌・書籍の配送状況は、お問い合わせフォームよりご連絡ください。
価格¥2,600
「図表を読めるAI」を作る近年、テキストだけでなく、図や表やグラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG(Retrieval−Augmented Generation)」の重要性が高まっています。従来のテキストベースRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書−−技術報告書、研究論文、プレゼン資料−−のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえ、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。<本書の構成>・第1章基本的な構成のRAG(データベース・検索器・生成器)をPythonで実装し、RAGの仕組みを理解します。・第2章画像をテキストに変換する方式と、画像とテキストを同一のベクトル空間に埋め込む方式という、2種類のマルチモーダルRAG の実装方法を紹介します。・第3章Embed−4やCLIP−RAG、反復型RAGといった最新手法を概観し、マルチモーダル知覚統合の潮流を整理します。・第4章特定領域の画像(医療画像、技術図面など)に特化したマルチモーダル RAG の構築を目指し、projectorやLLM、デュアルエンコーダのファインチューニング方法を実例とともに解説します。
カートに追加されました。
出版社からのコメント
「図表を読めるAI」を作る近年、テキストだけでなく、図や表やグラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG(Retrieval−Augmented Generation)」の重要性が高まっています。従来のテキストベースRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書−−技術報告書、研究論文、プレゼン資料−−のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえ、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。<本書の構成>・第1章基本的な構成のRAG(データベース・検索器・生成器)をPythonで実装し、RAGの仕組みを理解します。・第2章画像をテキストに変換する方式と、画像とテキストを同一のベクトル空間に埋め込む方式という、2種類のマルチモーダルRAG の実装方法を紹介します。・第3章Embed−4やCLIP−RAG、反復型RAGといった最新手法を概観し、マルチモーダル知覚統合の潮流を整理します。・第4章特定領域の画像(医療画像、技術図面など)に特化したマルチモーダル RAG の構築を目指し、projectorやLLM、デュアルエンコーダのファインチューニング方法を実例とともに解説します。